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(57【 要約 】 ( 修正 有 ) 

【 課題 】 カ メラ シス テム 、2 次 元 画像 情報 、 お よび カメ 
ラ か ら 物体 まで の 距離 の 様々 な 測定 値 の 組合 せ を 用 いて 
、 経 時 的 な 実 世 界 物体 の 動 的 状態 を 推定 する た め の 方 法 
を 提供 する 。 

【 解決 手段 】2 次 元 画像 情報 は 、 物 体 の 見 え 方 を 用 いて 
、 物 体 の 2 次 元 位置 の みな ら ず 、 そ の 2 次 元 サ イズ お よ 
び 2 次 元 サ イズ 変化 を も 追跡 する た め に 使用 され る 。 加 
えて 、 カ メラ か ら 物 体 ま で の 距離 は 、1 つま た は 幾つ か 
の 直接 奥行 き 測 定か ら 得 られ る 。2 次 元 位置 お よび サイ 
ズ 、 な ら び に 物体 の 奥行 き を 相互 に 結合 する こと に より 
、 物 体 の 3 次 元 位置 お よび 3 次 元 速度 の 改善 され た 推定 
が 得 ら れ 、 し た が っ て 、 動 的 視覚 的 場面 解析 用 の カメ ラ 
が 搭載 され た ロボ ッ ト また は 自動 車 の よう な 移動 する プ 
ラッ ト フォ ー ム 上 で 使用 する こと の で きる 、 改 善 さ れ た 
実 世界 物体 追跡 システム が 得 ら れる 。 

【 選択 図 】 図 1 
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【 特許 請求 の 範囲 】 
【 請求 項 1 】 

2 次元 見 え 方 ヒン ト お よび マル チキ ュー 奥行 き 推定 を 使用 し て 、 実 世界 物体 の 3 次 元 位 
置 お よび 3 次 元 速度 を 推定 する こと に よっ て 、 実 世界 物体 を 視覚 的 に 追跡 する た め の 方 法 
で あっ て 、 

( 1 . 1 ) 時 間 t に 計測 され る カメ ラ 画 像 を 撮影 する ステ ッ プ と 、 

(1.2) 時 間 t の 入力 特徴 を 得る た め に 一 連 の キュ ー を 使用 し て 、 時 間 t の カメ ラ 画 
像 の うち の 追跡 され る 物体 が 予想 され る 部 分 領域 を 前 処理 する ステ ッ プ と 、 

(1.3) 時 間 t の 視覚 的 入力 の 領域 で あっ て 、 追 加 的 アル ゴリ ズム また は ユー ザイ ン 
タラ クシ ョ ン の いずれ か に より 得 ら れ た 領域 を 、 外 部 手段 を 用 いて 指示 する こと に よっ て 
、 時 間 t の 入力 特徴 を 使用 し に て トラ ッ カ の テン プレ ー ト を 初期 化す る ステ ッ プ と 、 

(1 . 4) 時間 t 十 dt に 次 の カメ ラ 画 像 を 撮影 する ステ ッ プ と 、 

(1.5) 時間 t 十 dt の カメ ラ 画 像 の 部 分 領域 を ステ ッ プ 1 . 2 と 同様 に 前 処理 する 
ステ ッ プ と 、 

(1.6) 時 間 t お よび t +dt の 入力 特徴 に 2 次 元 ト ラッ カ を 使用 し て 、 カ メラ 画像 
の 2 次 元 座 標 に お ける 物体 の 見 え 方 の 2 次 元 位置 お よび 2 次 元 速度 の 推定 値 を 得る ステ ッ 
Ti aes 

(1.7) 奥行 き 変化 を 概算 する た め に 、2 つ の 連続 時 間 ス テッ プ t お よび t 十 dt で 
測定 され た 、 追 加 的 キュ ー か ら の 時 間 t の 物体 の 奥行 き の 推 定 値 を 使用 する ステ ッ プ と 、 

(1.8) 時 間 t お よび t +dt の カメ ラ 画 像 お よび また は 選択 され た 入力 特徴 に 2 
次 元 変換 推定 を 使用 し て 、 追跡 され る 物体 の スケ ー ル サイ ズ の 相対 的 変化 を 抽出 する ス 
テッ プ と 、 

(1.9) ステ ッ プ 1 . 7 か ら の 物体 の 奥行 き お よび 奥行 き 変 化 の 概算 推定 を 、 ス テッ 
プ 1 . 8 か ら の スケ ー ル サイ ズ の 変化 と 結合 し て 、 物 体 の 奥行 き 推定 を 改善 する ステ ッ 
Ds 

(1.10) カメ ラ 座 標 に お ける ステ ッ プ 1 . 6 か ら の 追跡 され る 物体 の 2 次元 位置 お 
よび 2 次元 速度 を 、 ス テッ プ 1 . 9 か ら の 奥行 き お よび 奥行 き 変 化 の 推定 と 結合 し 、 カ メ 
ラ 位 置 決め 情報 を 使用 する こと に よっ て それ を グロ ー バ ル 3 次 元 座標 に 変換 し て 、 追 跡 さ 
れる 物体 の グロ ー バ ル 座 標 を 得る ステ ッ プ と 、 

(1.11) 3 次 元 位置 を 使用 し て 、 物 体 の 大 ま か な 物 理 的 サイ ズ を 計算 する ステ ッ プ 
CS 
(1.12) 停止 基準 が 満た され る まで 、 和 物体 を 追跡 し な が ら ス テッ プ 1 . 4 ~1 . 1 
1 を 繰り 返す ステ ッ プ と 、 

を 含む 方 法 。 
【 請求 項 2】 

( 2. 1 ) グロ ー バ ル 空 間 に お ける カメ ラ の 位置 お よび 向き の 変化 を 考慮 に 入れ て 、 カ 

メラ お よび また は 前 記 カ メラ が 搭載 され た プラ ッ ト フ ォ ー ム の 動き を 補償 する ステ ッ プ 


を さら に 含む 、 請 求 項 1 に 記載 の 方 法 。 
【 請求 項 3 】 

( 3 . 1 ) ステ ッ プ 1 . 6 お よび 1 . 7 に よる 物体 状態 の 推定 、 お よび プ ま た は ステ ッ 
プ 1 . 9 に よる 結合 に 確率 論 的 方 法 を 使用 する こと に よっ て 、 不 確実 性 を 考慮 に 入れ る 、 
請求 項 1 また は 2 に 記載 の 方 法 。 

【 請求 項 4 】 

(4.1) ステ ッ プ 1 . 7 か ら の 奥行 き お よび 奥行 き 変化 奥行 き 速 度 の 概算 推定 が 、 
結果 を 時 間 で 積分 する こと に よっ て 増分 的 に 行なわ れる 、 請 求 項 1 な いし 3 の いずれ か 1 
項 に 記載 の 方 法 。 

【 請求 項 5】 

(5.1) 単 一 の 概算 奥行 き 推定 の 代わ り に 、 異 な る キュ ー お よび また は 測定 技術 に 

基づく 一 連 の 奥行 き 推定 が 使用 され 、 次 いで それ ら が 再び 、 ス テッ プ 1 . 9 の 場合 と 同様 
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に スケ ー ル サイ ズ の 変化 推定 で 2 次 元 変化 と 結合 され る 、 請 求 項 1 な いし 4 の いずれ か 
1 項 に 記載 の 方 法 。 
【 請求 項 6】 

(OOo Ae Lae eee SIRO HEED, Ta OR E 
る 奥行 き 変化 奥行 き 速 度 を 考慮 に 入れ る こと に よっ て 行なわ れ 、 す な わ ち 、 奥 行き の 増 
ee a ae れる サイ ズ の 増減 が 、 変 換 探索 手順 で 考慮 され 、 

(6.2) ステップ 1 . 7 か ら の 物体 の 奥行 き 推定 が 、 ス テッ プ 1 . 1 1 で 計算 され た 
物理 的 サイ ズ か ら 導 出さ れる 予想 奥行 き 、 お よび ステ ッ プ 1 . 8 か ら の 追跡 対象 物体 の ス 

ケー ルプ サイ ズ の 予想 変化 に 関す る 事前 の 情報 を 使用 する こと に よっ て 行なわ れる 、 

と いう 意味 で 、2 つの 推定 ステ ッ プ 1 . 7 お よび 1 . 8 が 相互 に 影響 を 及ぼ す 、 請 求 項 1 
な いし 5 に 記載 の 方 法 。 
【 請求 項 7 】 

(7.1) 物体 の 状態 パラ メー タ の より 高 次 の 導 関 数 に 同じ 原理 が 適用 され る 、 請 求 項 
1 な いし 6 に 記載 の 方 法 。 
請求 項 8 】 
カメ ラ 手 段 の 位置 お よび 向き を 適応 ささ せる た め の ア クチ ュ エ ー タ を 制御 する こと に よっ 
て 、 カ メラ 手段 の 入力 視野 内 の 追跡 され る 物体 の 位置 お よび 向き を 制御 する ビジ ュ ア ル サ 
ー ボ ユニ ッ ト に 、 ス テッ プ 1 . 1 2 の 結果 が 転送 され る 、 請 求 項 1 な いし 7 の いずれ か 1 
項 に 記載 の 方 法 。 

【 請求 項 9】 

請求 項 1 な いし 8 の いずれ か 1 項 に 記載 の 方 法 を 実行 する よう に プロ グラ ム さ れ た コン 
ピュ ー テ ィング 手段 に 信号 を 供給 する カメ ラ 手 段 を 有する 追跡 装置 。 
【 請求 項 1 0 
MORS に 記載 の 追跡 装置 を 具備 し た ヒュ ー マ ノ イド ロボ ッ ト 。 

請求 項 1 1 】 
請求 項 9 に 記載 の 追 跡 装置 を 具備 し た 自動 車 。 
請求 項 1 2 】 
コン ピュ ー テ ィング 装置 で 実行 し た と き に 請求 項 1 な いし 8 の いずれ か 1 項 に 記載 の 方 
法 を 実現 する 、 コ ンピュータ ソフ トウ ェ ア プ ログ ラム 製品 。 

【 発明 の 詳細 な 説明 】 
【 技術 分 野 】 
[0001] 

本 発明 は 、 カ メラ シス テム 、2 次 元 画像 形成 、 お よび カメ ラ か ら の 物体 の 距離 の 異な る 
測定 値 の 組合 せ を 用 いて 、 経 時 的 に 実 世界 物体 の 動 的 状態 を 推定 する た め の 方 法 を 記載 す 
る 。 本 発明 は また 、 カ メラ 手段 お よび プロ グラ ム さ れ た コン ピュ ー テ ィング 手段 を 有する 
追跡 装置 に も 関す る 。 

【 背景 技術 】 
[0002] 

技術 的 シス テム に と っ て 、 視覚 的 追跡 は 、 動 的 環境 で 物体 を 解析 する た め に 必要 な 1 つ 
の 重要 な 特徴 で あり 、 こ の 数 十 年 の 集中 的 な 研究 の 対象 で あり 、 例 えば 監視 、 衝 突 防 止 、 
お よび 軌跡 評価 の 分 野 に お ける 用 途 を 導い て きた 。 

[0003] 
Toward Robot Learning of Tool Manipulation from Human Demonstration, Aaron Eds 


と で 


~ 


と で 


inger and Charles C. Kemp 1 Computer Science and Artificial Intelligence Laborat 

ory Massachusetts Institute of Technology Cambridge, Massachusetts( 特に 図 1 お よ 

び 1 0 を 参照 され た い ) に 詳 述 され て いる 通り 、 ロ ボッ ト 分 野 で は 、 カ メラ 手段 の 位置 お 
よび 向き を 適応 させ る た め の ア クチ ュ エ ー タ を 制御 する こと に よっ て 、 カ メラ 手段 の 入力 
視野 内 の 追跡 され る 物体 の 位置 お よび 向き を 制御 する ビジ ュ ア ル サ ー ボ ユニ ッ ト に 、 視覚 
的 追跡 の 結果 を 転送 する こと が で きる 。 

[0004] 
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ビジ ュ ョ アル ザ サーボ ポ は 。 1 つ 以 上 の カメ ララ お よび ヨン ピュ ョ ュー タビ ジョ シン シス テム を 便 用 し 
て 、 ワ ー ク ( 追跡 され る 物体 ) に 対す る ロボ ッ ト の エン ドド エフェクタ ( マニ ピュ レー タ ) 
の 位置 を 制御 する こと を 含む 。 

【0005】 

技術 的 追跡 シス テム の 主 な 問題 は 、 それら が し ば し ば 、 追 跡 さ れ て いる 物体 の 正確 な 内 
部 モデ ル を 必要 と する こと に ある 。 一 例 と し て 、 交 通 場 面 で は 、 こ れ ら は 例え ば 自動 車 の 
3 次 元 モ デル ( それ ら の 正確 な 物理 的 大 き さ に つい て の 知識 を 含め 、 ボ リュ メト リッ ク ま 
た は サー フェ スモ デル の いずれ か ) と する こと が で き 、 そ れ ら は 次 いで 、 カ メラ シス テム 
に よっ て 感受 され る 刺激 と 一 致す る よう に 適合 され る 。 代替 的 に 、 多 く の 技 術 的 追跡 シス 
テム は 、 物体 の 色 の よう な 物体 の 見 え 方 に 関す る 特定 の 知識 に よっ て 、 物体 を 見 つけ る 。 
し か し 、 一 般 的 な 場合 、 追 跡 す べき 物体 は 事前 に は 分 か ら な い の で 、 正 確 な 3 次 元 モ デル 
また は 他 の 特定 的 な 知識 は 利用 で き な い 。 こ の 場合 、 追 跡 シ レス テム は 、 幾 つか の 異な る キ 
ュー お よび 測定 値 の 組合 せ を 使用 する 、 物体 の 3 次 元 位置 お よび 3 次 元 速度 の 推定 に 頼ら 
な けれ ば な ら な い 。 

[0006] 
先行 技術 

視覚 的 追跡 し は 、 カ メラ 手段 に よっ て 供給 され る 信号 を 使用 し て 、 経 時 的 に 実 世 界 物体 
を 、 そ の 動 的 パラ メー タ ( 位置 、 速 度 等 ) お よび カメ ラ に お ける その 2 次 元 見 え 方 が 変化 
する に も 関わ ら ず 、 視 覚 的 に 識別 し か つ 追 従 す る 能力 で ある 。 カ メラ の 見 え 方 は 、 実 世界 
3 次 元 物体 の 視覚 的 特性 の 2 次 元 ス クリ ー ン へ の 透視 投影 の 性 格 を 成す の で 、 本 質 的 に 2 
次 元 で ある 。 それ は 、( 外部 光 ス ペク トル 、 光 源 の 位置 の 変更 、 反 射 率 、 お よび 日 陰 効 果 
の よう な ) 変わ りや すい 外部 条件 に よっ て 生じ る 様々 な 表面 効果 の た め 、 物体 の 変形 の よ 
うな 内 部 特性 の た め 、 ま た は 単に 物体 が 回 転 し て 奥行 き の 位置 が 変わ っ た た め に 、 か な り 
変化 する こと が ある の で 、 透視 投影 は 、 捕 捉 さ れ た 画像 に お ける 物体 の 異な る 2 次元 見 え 
方 を 導く 。 

【0007】 

さら に 詳し く は 、 視 覚 的 追跡 は 通常 、 経 時 的 な 物体 の 動 的 制約 付き 探索 を 定義 むす る 。 こ 
れ は 、 物体 の 動 的 状態 ( その 位置 、 速 度 等 ) お よび さら な る 変換 パラ メー タ の 推定 を 含み 
、 両 タイ プ の 動 的 パラ メー タ は 通常 、 内 部 に 格納 され た 見 え 方 モデ ル と 、 物体 の 現在 の 実 
際 の 見 え 方 を も た ら す 刺激 と の 間 の 一 致 を 最大 化し よう と 試み る 、 対 応 探索 に よっ て 得 ら 
れる 。 最大 化 は 、 物 体 の 仮説 的 動 的 パラ メー タ に 応じ て 内 部 見 え 方 モデ ル を 変化 させ る こ 
と に よっ て 、 実 現さ れる 。 次 いで 最良 の 一 致 は 、 物 体 の さら な る 追跡 の た め に 使用 され る 
真 の パラ メー タ の 新しい 推定 値 を 得る た め に 、 処 理 さ れる 。 追跡 メカ ニズム の 研究 は 、 非 
特許 文献 1 に 見 る こと が で きる 。 

【0008】 

視覚 的 追跡 の た め の 先 行 技術 と し て 、 以下 が 挙げ られ る 。 
【0009】 

1 . 幾つ か の 公知 の 追跡 シス テム は 、2 次 元 「 テン プレ ー ト 」 を 使用 し て 、 物 体 パ ラメ 
ー タ と し て 例え ば その 2 次 元 位置 、 速 度 、 お よび 加速 度 を 推定 し て 、 純 粋 に 2 次 元 ベ ー ス 
の 追跡 を 取り 扱う 。 例 と し て 、 テ ンプ レー ト と 入力 と の 間 の ユー クリ ッ ド 差分 費用 関数 を 
使用 する 視覚 入力 に お ける 物体 の 相関 ベー ス の 探索 、 ヒ スト グラ ム ベ ー ス の 費用 関数 ( JE 
特許 文献 2 3) を 使用 する 平均 場 技術 、 お よび ユー クリ ッ ド 費用 関数 の 線形 化 バ ー ジ ョ 
ン を 構成 する 差分 法 ( 例え ば Luca ss-Kanade ま た は 「KLT」 ア ル ゴ リ ズム ) 
の よう な 特別 な アル ゴリ ズム が 挙げ られ る 。 以下 で 、 こ れ ら の 技術 の いずれ か に 従っ て 働 
く モ ジュ ー ル を 「 2 次元 トラ ッ カ 」 と 呼ぶ 。 

[0010] 

2. FYTL- VV FV TRS LC. ER. AT-UYT, SEVERE 
幾何 学 的 2 次 元 変換 の よう な 、 よ り 複 雑 な 追跡 の 物体 パラ メー タ を 推定 する こと が で きる 
。 例 と し て 再び 、 ア フィ ン 変 換 の 推定 の た め に 特殊 な 変形 を 施し た 、「 KL T 」 ア ル ゴ リ 
ズム が 挙げ られ る ( 非 特許 文献 4 ~6 ) 。 以下 で 、 こ の 技術 を 「 2 次 元 変換 推定 」 と 呼ぶ 
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{0011 ] 

3. 奥行 き は 通常 、 別 個 の キュ ー か ら 得 られ る 追加 的 な 「 測 定 値 」 と し て 含ま れる 。 現 
状 技術 で は 、 視差 の 計算 を 可能 に する 両 眼 立体 視 シ レス テム が 使用 され 、 そ の 結果 と し て 
、 追 跡 さ れる 物体 の 奥行 き 推定 が 得 ら れる ( 非 特許 文献 7 ) 。 奥行 き は 、 物 体 の 状態 に 付 
加 さ れる が 、 自律 的 に 実行 され る 2 次 元 ベ ペース の 追跡 に 影響 を た 及ぼさ な い 。 視差 ベー ス の 
奥行 き 計 算 は 、 信 頼 性 の 点 で か な り の 限界 を 有 し 、 ベ ー ス ライ ン 長 (2 つの カメ ラ 間 の 水 
平 距離 ) に よっ て 制限 され る 狭い 奥行 き 範囲 で の み 有 効 で ある の で 、 例 えば 人 間 は 、 数 メ 
ー ト ル の 範囲 で し か それ を 使用 する こと が で き な い 。 以下 で 、 こ の 技術 を 「 視差 ベー ス の 
奥行 き 測定 」 と 呼ぶ 。 

[0012] 

4. 2 次 元 ト ラッ カカ の 代わ り に 、3 次 元 ト ラッ カ は 時 々 、 物体 の 正確 な 内 部 3 次 元 モ デ 
ル を 使用 する (物体 を 他 の 手段 で 測定 する か 、 ま た は 事前 に 承知 し て いな けれ ば な ら な い 
) ( 非 特許 文 献 8 、9 ) 。 こ の 場合 、 内 部 3 次 元 モ デル の 変換 投影 バー ジョ ン と カメ ラ 入 
力 と の 正確 な 一 致 を 見 出す こと が で きれ ば 、 網 膜 上 の その サイ ズ か ら 、 そ の 奥行 き に 関す 
る 結論 を 引き 出す こと が 可能 で ある 。 

[0013] 

5. 別 の タイ プ の 両 眼 3 次 元 ト ラッ カ は 、 内 部 状態 と し て 3 次 元 座標 を 直接 使用 し て 始 
動 し 、 両 方 の カメ ラ で 特定 の 物体 の 見 え 方 を 見 つけ よう と する 。 この 場合 、2 次 元 見 え 方 
一 致 計 算 お よび 奥行 き 推 定 は 、3 次 元 座標 、 お よび 左右 の カメ ラ の 2 次元 座標 へ の それ ら 
の 投影 を 介し て 、 自 動 的 に 結合 され る 。 こ れ ら の トラ ッ カ は し ば し ば 、( 特殊 な 事例 と し 
て 、 カ ルマン フィ ル タ を 含む ) 動 的 ベイ ジア ン ネ ットワーク を 使用 し て 実現 され る の で 、 
推定 が 経時 的 に 得 ら れ か つ 改 善 され る 。 

[0014] 

6. 公知 の マル チキ ュー トラ ッ カ は 、 同 一 タイ プ の パラ メー タ の 推定 の た め に 複数 の キ 
ュー を 統合 し 、 そ れ ら の 信頼 性 に 従っ て それ ら を 組み 合わ せる か 、 ま た は 最も 信頼 で きる 
キュ ー を 選択 し て 、 こ れ ら の み に 基 づい て 推定 を 行なう 。 

[0015] 

7. 一 般 的 に 、 動 的 ベイ ジア ン 推 定 器 は まさ し く 、 追 跡 中 に 生じ る 状態 変数 の 時 間 的 推 
定 お よび 統合 の た め の 研 究 分 野 で ある 。 我々 は 、 そ の 変形 の 粒子 フィ ル タ お よび カル マン 
フィ ル タ を 含む この 先行 技術 を 公知 で ある と 考え る ( 非 特許 文献 10~-12) 。 
[0016] 

8. 視界 の た め の 頑 健 か つ 高 密度 の 3 次 元 信 号 を 提供 する 、 例 えば 飛行 時 間 信 号 を 利用 
し た 奥行 き 検 知 カ メラ 技術 ( 特許 文献 1 を 参照 され た い ) を 使用 する 、 多 数 の 視覚 的 追跡 
シス テム が 存在 する 。 通常 、 こ れ ら の シス テム は 、3 次 元 デ ー タ に 頼っ て 物体 を 検出 し 追 
跡 す る 。 す な わ ち 、 物体 は 奥行 き デ ー タ を 用 いて 「 切り 取ら れる 」。 し か し 、 本 発明 で 追 
求 す る 方 法 は 標準 的 な 可視 カメ ラ お よび 見 え 方 ベー ス の 追跡 に 依存 する の で 、a ) 追跡 さ 
れる 物体 は その 3 次元 デー タ か ら セ グ メ ント 化 可 能 で ある 必要 が 無く 、 か つ b ) 特殊 な 検 
知 ハ ー ド ウェ ア が 不要 で ある 。 そ れ に も 関わ ら ず 、 そ の よう な 検知 技術 か ら の デー タ を 、 
まさ し く 核心 的 な 意味 で 、 追 加 的 奥行 き 測定 値 と し て 我々 の シス テム に 組み 込む こと が で 
きる 。 

【 先行 技術 文献 】 
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【 発明 の 概要 】 
【 発明 が 解決 し よう と する 課題 】 
[0019] 

本 発明 は 、 事 前 に 正確 な 物体 モデ ル を 必要 と し な い が 、 そ れ に も 関わ ら ず 、 物体 の 2 次 
元 見 え 方 の 解析 お よび 奥行 き 推 定 の た め の 幾 つか の 視覚 的 キュ ー の 統合 に 依存 し て 、 物 体 
の 3 次 元 位置 お よび 3 次 元 速 度 を 推定 する こと の で きる 視覚 的 追跡 シス テム を 目標 と する 
[0020] 

この 能力 は 、 独立 請求 項 の 特徴 に よっ て 達成 され る 。 従属 請求 項 は 、 本 発明 の 中 心 的 概 
念 を さら に 展開 する 。 

【 課題 を 解決 する た め の 手 段 】 
[0021] 

本 発明 の 第 1 態様 は 、2 次 元 見 え 方 ヒン ト お よび マル チキ ュー 奥行 き 推定 を 使用 し て 、 
任意 の 実 世 界 物体 の 3 次 元 位置 お よび 3 次 元 速度 を 推定 する こと に よっ て 、 該 実 世界 物体 
を 追跡 する た め の 方 法 に 関す る 。 該 方 法 は 、 以 下 の ス テッ プ を 含む 。 


[0022] 
(1.1) 時 間 t に 計測 され る カメ ラ 画 像 を 撮影 する ステ ッ プ 。 
[0023] 


(1.2) 時 間 t の 入力 特徴 を 得る た め に 一 連 の キュ ー を 使用 し て 、 時 間 t の カメ ラ 画 
像 の うち の 追跡 され る 物体 が 予想 され る 部 分 領域 を 前 処理 する ステ ッ プ 。 

[0024] 

(1.3) 時 間 t の 視覚 的 入力 の 領域 で あっ て 、( セグ メン ト 化 アル ゴリ ズム の よう な 
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) 追加 的 アル ゴリ ズム 、 ま た は (カメラ に よっ て 送達 され る 画像 の 位置 お よび 領域 を 指示 
する ) ユー ザイ ンタ ラク ショ ン の いずれ か に より 得 ら れ た 領域 を 、 外 部 手段 を 用 いて 指示 
する こと に よっ て 、 時 間 t の 入力 特徴 を 使用 し て トラ ッ カ の テン プレ ー ト を 初期 化す る ス 
テッ プ 。 こ の 時 間 ス テッ プ で 、 選 択 さ れ た 領域 は 重み 付け マス ク の 形 で 格納 され 、 物体 の 
内 部 状態 は 、( 例え ば 、 そ の セン トロ イド 、 そ の 重心 、 ま た は 重み 付け マス ク を 用 いて 積 
分 され た その 平均 位置 を 使用 し て ) 該 領 域 か ら 導 出さ れる 位置 に 初期 化 さ れる 。 
【0025】 
(1.4) 時 間 t 二 dt に 次 の カメ ラ 画 像 を 撮影 する ステ ッ プ 。 

【0026】 

(1.5) 時間 t 十 dt の カメ ラ 画 像 の 部 分 領域 を ステ ッ プ 1 . 2 と 同様 に 前 処理 する 
ステ ッ プ 。 
[0027] 

(1.6) 時間 t お よび t +dt の 入力 特徴 に 2 次 元 ト ラッ カ を 使用 し て 、 カ メラ 画像 
の 2 次 元 座 標 に お ける 物体 の 見 え 方 の 2 次 元 位置 お よび 2 次 元 速度 の 推定 値 を 得る ステ ッ 
プ 。 

【0028】 

( 1 . 7 ) 視覚 を ベー ス に する こと が で きる が 、 必 ず し も そう する 必要 の 無い 追加 的 キ 
ュー か ら 、 時 間 t の 物体 の 奥行 き ( カメ ラ シ ス テム か ら の その 距離 ) の 概算 推定 を 使用 す 
る ステ ッ プ 。 2 つの 連続 的 時 間 ス テッ プ t お よび t 十 dt で 計測 され 、 こ れ は 奥行 き 変 化 
の 概算 と し て 役立つ 。 実際 に は 、 奥 行き 計測 は 、 双 眼 カ メラ シス テム の 場合 の よう に 、 例 
えば 第 2 カメ ラ か ら の 入力 が 関係 する か も し れ な い 。 

[0029] 

(1.8) 時 間 t お よび t +dt DAXFHMBRELO/VEKMBRSE NHEADBAK 2 
次 元 変換 推定 を 使用 し て 、 追 跡 さ れる 物体 の スケ ー ル サイ ズ の 相対 的 変化 を 抽出 する ス 
テッ プ 。 

【0030】 

(1.9) 剛性 物体 の 場合 、 サ イズ の 縮小 また は 拡大 が それ ぞ れ 物体 の 奥行 き の 増加 ま 
た は 減少 の ヒン ト に な る と いう 意味 で 、 ス テッ プ 1 . 7 か ら の 物体 の 奥行 き お よび 奥行 き 
変化 の 概算 推定 を 、 ス テッ プ 1 . 8 か ら の スケ ー ル サイ ズ の 変化 と 結合 し て 、 物 体 の 奥 
行き 推定 を 改善 する ステ ッ プ 。 

[0031] 

(1.10) ( カメ ラ 座 標 に お ける ) ステ ッ プ 1 . 6 か ら の 追跡 され る 物体 の 2 次 元 位 
置 お よび 2 次 元 速 度 を 、 ス テッ プ 1 . 9 か ら の 奥行 き お よび 奥行 き 変化 の 推定 と 結合 し 、 
カメ ラ 位 置 決め 情報 を 使用 する こと に よっ て それ を グロ ー バ ル 3 次 元 座標 に 変換 し て 、 追 
跡 さ れる 物体 の グロ ー バ ル 座 標 を 得る ステ ッ プ 。 

[0032] 
(1.11) 3 次 元 位置 を 使用 し て 、 物 体 の 大 ま か な 物 理 的 サイ ズ を 計算 する ステ ッ プ 


[0033] 

(1.12) 物体 を 見 失う まで ( それ は 例え ば 入力 と テン プレ ー ト と の 間 の マッ チン グ 
か ら 何らかの 信頼 性 基準 に よっ て 検出 する こと が で きる ) 、 物体 を 追跡 し な が ら ス テッ プ 
1 .4 <1 . 1 1 を 繰り 返す ステ ッ プ 。 

[0034] 

(1.13) 再び ステ ッ プ 1 . 1 か ら 始 め 、 同 一 物体 また は 新しい 物体 を 追跡 する 。 
[0035] 

該 方 法 は さら に 、 

( 2. 1 ) グロ ー バ ル 空 間 に お ける カメ ラ の 位置 お よび 向き の 変化 を 考慮 に 入れ て 、 カ 
メラ お よび ププ また は それ が 搭載 され た プラ ッ ト フ ォ ー ム の 動き を 補償 る ステ ッ プ 、 

を 含む 。 
【0036】 
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ステ ッ プ 1 . 6 お よび 1 . 7 に よる 物体 の 推定 、 お よび プ ま た は ステ ッ プ 1 . 9 に よる 
結合 に 確率 論 的 方 法 を 使用 する こと に よっ て 、 不 確実 性 を 考慮 に 入れ る こと が で きる 。 
[0037] 

ステ ッ プ 1 . 7 か ら の 奥行 き お よび 奥行 き 変化 奥行 き 速 度 の 概算 推定 は 、 例 えば 動 的 
ベイ ジア ン フ ィ ル タカ ルマン フィ ル タ 等 を 使用 する と き の よ うに 、 結 果 を 時 間 で 積分 す 
る こと に よっ て 増分 的 に 行なう こと が で きる 。 

【0038】 

単 一 の 概算 奥行 き 推定 の 代わ り に 、 異 な る キュ ー お よび また は 測定 技術 に 基づく 一 連 
の 奥行 き 推定 を 使用 する こと が で き 、 次 いで それ ら は 再び 、 ス テッ プ 1 . 9 の 場合 と 同様 
に 、 ス ケー ルプ サイ ズ の 変化 推定 で 2 次 元 変化 と 結合 され る 。 

【0039】 

2 つの 推定 ステ ッ プ 1 . 7 お よび 1 . 8 は 、 次 の 意味 で 、 相 互 に 影響 を 及ぼ すこ と が あ 
る 。 

a) ステ ッ プ 1 . 8 か ら の 2 次 元 変換 の 推定 は 、 ス テッ プ 1 . 7 か ら の 予想 され る 奥行 
き 変 化 奥 行き 速度 を 考慮 に 入れ る こと に よっ て 行なわ れる 。 す な わ ち 、 奥 行き の 増加 / 
減少 に よっ て 生じ る 予想 され る サイ ズ の 増減 が 、 変 換 探 索 手順 で 考慮 され る 。 

b) ステ ッ プ 1 . 7 か ら の 物体 の 奥行 き 推 定 は 、 ス テッ プ 1 . 1 1 で 計算 され た 物理 的 
サイ ズ か ら 導 出さ れる 予想 奥行 き 、 お よび ステ ッ プ 1 . 8 か ら の 追跡 対象 物体 の スケ ー ル 
グ サ イズ の 予想 変化 に 関す る 事前 の 情報 を 使用 する こと に よっ て 行なわ れる 。 
[0040] 

物体 の 状態 パラ メー タ の より 高 次 の 導 関 数 に 同じ 原理 を 適用 する こと が で きる の で 、 例 
えば 物体 の 位置 また は サイ ズ ま た は 向き の 加速 度 が 推定 され 、 追 跡 手順 に 使用 され る 。 
[0041] 

本 発明 の さら な る 特徴 、 特 性 、 お よび 利点 は 、 本 発明 の 好適 な 実施 形態 の 以下 の 詳細 な 
説明 を 、 添 付す る 図面 の 図 と 併せ て 読ん だ と き に 、 当 業者 に は 明らか に な る で あろ う 。 

【 図面 の 簡単 な 説明 】 

[0042] 

【 図 1 】 本 発明 を 実現 する た め の シ ステ ム の 概要 を 示す 。 

【 図 2 】 物体 の 奥行 き 、 物 体 の 物理 的 サイ ズ 、 お よび その 2 次 元 見 え 方 サイ ズ の 間 の 数 学 


的 関係 の 図解 を 示す 。 

【 発明 を 実施 する た め の 形 態 】 

[0043] 

図 1 は 、 本 発明 を 実現 する た め の シ ステ ム の 概要 を 示す 。 
[0044] 

該 シ ステ ム は 、 幾つ か の モジ ュー ル を 備え る 。 
[0045] 


1. 物体 の 2 次 元 見 え 方 に 基づい て 働き 、 そ の 位置 お よび 速度 を 推定 する 2 次 元 ト ラッ 
カモ ジュ ー ル 。 こ れ は 、 追 跡 さ れる 物体 の 正確 な 事前 の モデ ル を 必要 と する こと な く 行 な 
われ る 。 代わ り に 、 追 跡 テ ンプ レー ト ( すなわち 、 今 か ら 追 跡 す べき 場面 の 原型 的 部 分 ) 
を 、 第 1 ステ ッ プ と し て 入力 画像 か ら 直 接 抽出 する こと が で きる 。 こ れ は 、 物体 の 見 え 方 
お よび 物体 クラ スプ タ イプ に 対す る 事前 の 制限 無く 、 一 般 的 な 任意 の 物体 を 追跡 する こと 
を 可能 に する 。 

[0046] 

2. その スケ ー ル お よび スケ ー ル 変化 率 を 含め 、 テ ンプ レー ト と 入力 と の 間 の 最良 の 一 
致 を 見 出す こと を 可能 に する 、 幾つ か の 変換 パラ メー タ を 推定 する 、 幾 何 学 的 2 次 元 変換 
推定 モジ ュー ル 。 例 と し て 、2 つの 追跡 時 間 ス テッ プ 間 の スケ ー ル 変化 が 0. 1 で ある 場 
合 、 そ れ は 、 追跡 され る 物体 の 2 次 元 見 え 方 ( すなわち 、 カ メラ シス テム に よっ て 送達 さ 
れる と き の そ の 見 え 方 ) は 、 サ イズ が 1 0 % 増 大 する こと を 意味 する 。 

[0047] 
3. 物体 の 奥行 き ( すなわち 、 カ メラ シス テム か ら 物 体 ま で の 距離 ) の 独立 測定 値 を 提 
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供する 1 つ 以 上 の モジ ュー ル 。 し か し 、 こ れ ら の 測定 値 は あま り 信 頼 で き な い か も し れ な 
い 。 我々 の 例示 的 な 場合 で は 、a ) 左右 の カメ ラ 間 の ロー カル パッ チ の 比較 に 基づく 高密 
度 双 眼 視差 ベー ス の 奥行 き 測定 シス テム 、 お よび b ) 左右 の カメ ラ 画 像 内 で 物体 を 見 つけ 
出 そ う と し 、2 つの 一 致 問 の ずれ か ら 追 跡 さ れる 物体 の 単 一 の 奥行 き 値 を 計算 する 、 よ り 
グロ ー バ ル に 作用 する 双 眼 シ ステ ム を 使用 する 。 

【0048】 

4 . 座標 を カメ ラ 座 標 系 か ら グ ロー バル 座標 系 に 変換 し か つ 元 に 戻す た め の 手 段 。 こ の 
場合 、 各 ポイ ント の 「 完全 な 」3 次 元 カ メラ 座標 は 、2 次 元 カ メラ 座標 プラ ス 奥 行き 値 か 
ら 構成 され る 。 カ メラ 画像 は 、 一 種 の /「 ピン ホー ルカ メラ 」 と し て 取り 扱う こと が で きる 
よう に 、 レ ンズ 歪み を 考慮 する よう に 修正 する こと が で きる と 想定 し 、 グ ロー バル 空間 に 
お ける カメ ラ の 位置 お よび 向き が 分 か る と 、 幾何 学 的 考察 を 介し て 座標 変換 を 容易 に 求め 
る こと が で きる 。 その 場合 、1 つの 座標 系 か ら 他 の 座標 系 へ の 完全 な 変換 は 、 平 行 移動 、 
直交 投影 、 お よび 透視 投影 の 観点 か ら 説 明 す る こと が で きる 。 

【0049】 

5. シス テム と 共に カメ ラ シ ス テム の 動き を 定量 化す る こと が で きる よう に 、 グ ロー バ 
ル 空 間 に お ける カメ ラ の 位置 お よび 向き の 変化 を 測定 また は 推定 する 手段 。 こ れ は 、 例 え 
ば ビジ ョ ン シ ス テム を 搭載 し た 動く 自動 車 ま た は ロボ ッ ト の よう な 、 カ メラ を 搭載 し た ま 
ま 自律 的 に 移動 する プラ ッ ト フ ォ ー ム の 場合 に 特に 有利 で ある 。 

[0050] 

VILFALT, 場合 に より 可動 で ある プラ ッ ト フ ォ ー ム に 取り 付け られ た カメ ラ か ら 、w 
Kh 画素 の サイ ズ の 2 次 元 入力 画像 を 受信 する 。 グ ロー バル に 固定 され た 座標 系 に 対す る 
プラ ッ ト フ ォ ー ム の 位置 お よび 向き 、 な ら び に プラ ッ ト フ ォ ー ム に 対す る カメ ラ ( また は 
、 物 体 奥行 き 測定 が 双 眼 視 差 に よっ て 供給 され る 場合 、2 つの カメ ラ ) の 位置 お よび 向き 
は 、 い つ で も 大 ま か に 分 か っ て いる も の と 想定 され る 。 こ れ に より 、 グ ロー バル 3 次 元 座 
標 系 と カメ ラ に 固定 され それ と アラ イメ ント させ た 3 次元 座 標 系 と の 間 で 座標 の 変換 が 可 
能 で ある 。 

[0051] 

さら に 、 カ メラ の 3 次 元 座標 か ら カ メラ の 2 次元 入力 座標 へ の 投影 お よび その 逆 が 分 か 
っ て いる も の と 想定 され る 。 その 結果 、、( グ ロー バル 3 次 元 座標 系 と 2 次元 カメ ラ 入 力 座標 
と の 間 で 、 座 標 を いつ で も 変換 する こと が で きる 。 

[0052] 

次 に 、 本 発明 に 係る 処理 に つい て 説明 する 。 
[0053] 

第 1 ステ ッ プ と し て 、2 次元 カメ ラ 入 力 は 、 一 連 の n 個 の キュ ー を 使用 し て 前 処理 され 
、n 個 1 組 の 画像 を 導く 。 キュ ー は 、 向 き 、 コ ント ラス ト 、 ま た は 色 抽 出 フ ィ ル タ を 入力 
画像 に 適用 する よう な 、 単 純 な 前 処理 方 法 に よっ て 得る こと が で きる が 、 そ の 期待 され る 
色 の よう な 、 特定 の 物体 に 特異 的 な 、 よ り 洗 練 さ れ た 指標 を も 含む こと と が で きる 。 キ ュー 
の 厳密 な 選択 は 、 そ れ ら が 前 処理 され た カメ ラ 画 像 を 用 いて 物体 を 追跡 する こと を 可能 に 
する 充分 な 情報 を 含む 限り 、 本 発明 の 関連 事項 で は な い 。 理想 的 な 場合 で は 、1 つの キュ 
ー か ら の 追跡 障害 が 他 の キュ ー に よっ て 補償 され 、 プ ロ セ ス 全 体 が 入力 の 変動 に 対し て 頑 
健 と な る よう に 、 様 々 な キュ ー が 、 物体 に 関し て 非 相 関 的 な 情報 を 伝達 する 。 以下 の ステ 
ッ プ の ほとん ど は 、 前 処理 され た 入力 画像 か ら 抽 出さ れ た n 個 の キュ ー を 使用 し 、 以 下 で 
は それ ら を 「n 個 の 入力 特徴 」 と 呼ぶ 。 

【0054】 

処理 資源 を 節約 する た め に 、 前 処理 を 2 次 元 カ メラ 視野 の 制限 され た 部 分 領域 に 制限 す 
る こと が 可能 で ある 。 部 分 領域 は 、 例 えば 、 追 跡 す べき 物体 の 推定 され る 位置 、 サ イズ 、 
お よび 速度 か ら 決 定 す る こと が で きる 。 ひ と た び 追 跡 が 開始 され る と 、 こ れ ら の パラ メー 
タ は 全て 、 追 跡 シ ステ ム に よっ て 連続 的 に 推定 され る の で 、 そ れ ら は 容易 に 利用 可能 で あ 
り 、 各 時 間 ス テッ プ で 部 分 領域 を それ に 応じ て 調整 する こと が で きる 。 

[0055] 
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まず 、 手 始め に 、 シ ステ ム は 、 追 跡 す べき 物体 が どの よう に 見 える か 、 お お よそ の 概念 
を 必要 と する 。 こ の 目的 の た め に 、 シ ステ ム に 、 入 力 特徴 と 同一 空間 で 作用 する 2 RTE 
え 方 テン プレ ー ト を 供給 し な けれ ば な ら な い 。 実 際 に は 、 こ れ は 、 シ ステ ム が その よう な 
テン プレ ー ト を ユー ザイ ンタ ラク ショ ン も し く は ここ に 記載 し な い 他 の ( 以前 に 記録 され 
た 見 え 方 テン プレ ー ト を 供給 する こと の で きる メモ リモ ジュ ー ル の よう な ) モジ ュー ル か 
ら 得 る こと 、 ま た は 再び ユー ザイ ンタ ラク ショ ン か ら ま た は 他 の モジ ュー ル か ら 位 置 お よ 
び エ リア 情報 を 得 て 、 現 在 の 入力 特徴 を 使用 し て 、 独 力 で 2 次元 見 え 方 テン プレ ー ト を 抽 
出す る こと を 意味 する 。 詳 し く は 、 テ ンプ レー ト を 抽出 する に は 、 直 接 供給 され る か また 
は 2 次 元 カ メラ 入力 座標 に 変換 する こと の で きる 、 位 置 お よび エリ ア の 指示 を 必要 と する 
。 シ ステ ム 内 で 物体 の 2 次 元 見 え 方 を 説明 する た め に 使用 され る 物体 の 内 部 状態 は 、 テ ン 
プレ ー ト 、2 次 元 カ メラ 座標 に お ける 位置 、 お よび 指示 され た エリ ア か ら 得 られ る 重み 付 
け マ スク か ら 構 成 さ れる 。 最終 的 に 、 例 えば 位置 が 3 次 元 座標 で 供給 され た 場合 、 想 定 さ 
れる 速度 、 サ イズ 等 の よう な 補助 情報 の みな ら ず 、3 次 元 位置 も 物体 の 状態 の 一 部 と な る 
【0056】 

ひと た び ト ラッ カ が 初期 化 さ れる と 、2 次 元 見 え 方 テン プレ ー ト と 入力 特徴 と の 間 の 一 
致 が 大 きい 視覚 的 場面 の 部 分 を 見 つけ る こと に よっ て 、 そ の 後 の 画像 で 物体 を 探索 する こ 
と が で きる 。 こ れ は 2 次 元 ト ラッ カ に よっ て 達成 され 、 そ れ は 、 我 々 の 特別 な 場合 で は 、 
増分 的 に か つ 統 計 的 に 動作 する 最 先 端 の マル チキ ュー 動 的 ベイ ジア ント ラッ カ と し て 実現 
され る 。 こ の モジ ュー ル か ら 得 られ る 結果 は 、 追 跡 さ れる 物体 が 現在 何 か 特 定 の 2 次 元 カ 
メラ 入力 位置 お よび 速度 を 有 し て いる 確率 を 示す 、 確 率 マ ッ プ で ある 。 

[0057] 

物体 の 2 次 元 見 え 方 が 経時 的 に か な り 変 化す る 場合 、2 次 元 見 え 方 テン プレ ー ト お よび 
また は 物体 特定 的 な キュ ー の パラ メー タ を 再 調整 す る 、 キ ュー お よび テン プレ ー ト 適応 
ステ ッ プ を 、 追 跡 手順 に 組み 込む こと が 有用 で ある 。 

【0058】 

さら な る ステ ッ プ と し て 、 物体 と カメ ラ と の 間 の 3 次 元 距 離 を 意味 する 、 奥 行き が ここ 
で 推定 され る 。 本 発明 の 中 心 的 概念 は 、 全 く 異な る キュ ー に 作用 し か つ 各 々 の 単 一 推定 の 
弱点 を 相互 に 補い 合う よう に 相補 的 に 機能 する 、2 つの 特定 の ( 以下 で 説明 する ) 奥行 き 
推定 を 結合 する と いう も の で ある 。 1 ) それ ら の 1 つ は 、 双 眼 視 を 利用 する よう な 従来 の 
技術 を 使用 し た 、 直 接 奥 行き 推定 で ある 。 本 質 的 に 、 こ の 直接 奥行 き 推定 は 、 相 互 に す で 
に 統合 され た 幾つ か の 異な る 方 法 の 組合 せ と す る こと が で きる 。2) 第 2 の 技術 は 、 単 一 
の カメ ラ の 物体 の 2 次 元 見 え 方 の サイ ズ の 変化 を 観察 する こと か ら 抽 出 で き る 奥行 き 変化 
推定 で ある 。 基本 原理 は 、 カ メラ まで の 距離 が 増加 また は 減少 する 物体 が 、2 次 元 見 え 方 
の サイ ズ の 減少 また は 増加 を それ ぞ れ 生じ る と いう こと で ある 。 物体 奥行 き お よび 奥行 き 
速度 が 分 か る と 、 物体 の 2 次 元 見 え 方 の 予想 サイ ズ 変 化 を 推定 する こと が で きる 。 逆 に 、 
物体 奥行 き お よび その 2 次 元 見 え 方 サイ ズ の 変化 が 分 か る と 、 奥 行き 速度 を 推定 する こと 
が で きる 。 し た が っ て 2 つの 奥行 き 推定 (すなわち 、 直 接 推定 お よび 2 次 元 サ イズ 変化 の 
推定 に 基づく も の ) は 、 密接 に 結び 付け られ 、 こ れ ら 2 つの 特性 の 組合 せ を 利用 する 方 法 
で 3 次 元 追 跡 シ ステ ム を 設計 する こと は 合理 的 で ある 。 そ の よう な シス テム は 、 和 物体 自体 
の 正確 な 3 次 元 モ デル 無し で 、 主 に 物体 の 2 次 元 見 え 方 お よび 2 次 元 見 え 方 変化 に 頼っ て 
、 任意 の 物体 を 安定 的 に 容易 に 3 次 元 追跡 する こと が 可能 で ある 。 

【0059】 

特に 、 双 眼 技術 と 組み 合わ せ て 、2 つの 異な る 奥行 き 推 定 法 を 結合 する こと に より 、3 
次 元 物体 追跡 シス テム の 利点 が も た ら さ れる 。 双 眼 シ ステ ム は 、 カ メラ の ベー スラ イン 長 
に 応じ て 、 カ メラ か ら の 近接 距離 で よく 機能 する 。 し か し 、 追 跡 さ れる 物体 の サイ ズ 変 化 
の 観察 に よる 奥行 き 推 定 は 、 よ り 大 きい 範囲 の 距離 に 対し て よく 機能 する こと が で きる 。 
し た が っ て 両方 の 方 法 は 相互 に ブー トス トラ ッ プ する こと が で きる 。 例 と し て 、 そ の 奥行 
き が 近接 距離 範囲 で 正確 に 測定 され る 物体 は 、 そ れ が 双 眼 シ ステ ム の 正確 な 3 次 元 推定 の 
範囲 外 に 移動 し た と き に は 、 そ の サイ ズ 変 化 を 奥行 き 測定 し て 追跡 する こと が で きる 。 
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[0060] 

物体 の 2 次 元 見 え 方 の サイ ズ 変 化 は 、 こ の シス テム で 、 先 行 技術 の 要点 2 に 記載 し た 、 
2 次 元 変換 推定 と 呼ば れる テン プレ ー ト マッ チン グ 手 順 を 使用 し て 、 抽 出さ れる 。 我々 の 
場合 で は 、 シ ステ ム は 、2 次元 見 え 方 テン プレ ー ト と 入力 画像 と の 間 の 最良 の 一 致 を 提供 
する アフ ィ ン 変 換 A を 探索 する 。 各 時 間 ス テッ プ t , で 、 現 在 の 変換 状態 A( t ,) は 、 

「 現在 追跡 され る 物体 が 、 特 定 の 量 だ け 変 換 さ れ た 、 例 えば 5 度 回 転 さ れ か つ 1 0 % ス ケ 
ー リ ング され た 、2 次 元 見 え 方 テン プレ ー ト の よう に 見 える 」 と いう 意味 で 、 テ ンプ レー 
ト に 対す る 追跡 され る 物体 の 現在 の 2 次 元 見 え 方 の 最良 の 表現 を 表わす 。 次 いで 次 の 時 間 
ステ ッ プ tk+i の 変換 状態 A( tk+」) は 、 変 換 状 態 A 人 (tk) を 未来 に 波及 させ 、 

か つ そ こ か ら 新 し い テ ンプ レー トマ ッ チ ング を ベー ス と する 変換 推定 探索 を 開始 する こと 
に よっ て 、 推定 され る 。 各 アフ ィ ン 変 換 状態 か ら 、 サ イズ 2 は 、 次 の よう に それ を スケ ー 
リン グ お よび 回 転 の 合成 と し て 近似 する こと に よっ て 抽出 され る 。 


【 数 1 】 
aoa | jo | 
1 a, 0 4 sin(a) cos(@) 
{0061 ] 


これ は 、 ス ケー ルス A が 、 変 換 状 態 行 列 の 決定 か ら 直 接 計 算 す る こと が で きる こと を 意味 
する 。 次 いで 、2 つの 連続 時 間 ス テッ プ か ら の 結果 を 減算 し て 、2 次 元 見 え 方 の サイ ズ 変 
化 を 定量 化す る 変換 変化 、 例 えば 2 つの 時 間 ス テッ プ 間 の スケ ー ル 変換 変化 へ 久 を 計算 す 
る こと が で きる 。 

[0062] 

双 眼 入 力 に 基づく 直接 奥行 き 推 定 は 、 我 々 の 場合 で は 、 標 準 視差 ベー ス の 高密 度 ( す な 
わ ち 画素 単位 ) 奥行 き 測定 ( 先行 技術 の 要点 3 を 参照 され た い ) の 後に 、 物 体重 み 付 け マ 
スク を 用 いて 、( 例え ば 、 高 密度 奥行 き 測定 と マス ク の 空間 積分 に よっ て ) 追跡 され る 物 
体 全 体 の 単 二 の お お よそ の 奥行 き を 抽出 する も の で あっ た 。 再び これ ら の 測定 値 を 、 動 的 
ベイ ジア ン 推 定 器 を 用 いて 時 間 で 積分 し た 。 我 々 が シス テム に 組み 込ん だ 追加 の 第 2 の 双 
BRETT SE HEIL, BI カメ ラ か ら 抽 出さ れ た 2 次元 見 え 方 テン プレ ー ト を 、 例 えば 相互 相 
関 ま た は 先行 技術 の 要点 2 に 記載 され た テン プレ ー ト マッ チン グ 技 術 を 用 いて 、 第 2 カメ 
ラ で 直接 探索 する も の で ある 。 左側 の カメ ラ で テン プレ ー ト が 見 られ る 位置 と 右側 の カメ 
ラ で 見 られ る 位置 と の 間 の 相対 ずれ か ら 、 奥 行き 測定 の ベー ス と し て も 使用 する こと の で 
きる 視差 が 抽出 され る 。 

【0063】 

直接 奥行 き 測定 は 、 し ば し ば 信頼 で き な い 物体 の 奥行 き に 関し て 、 幾 つか の ヒン ト を 提 
供する 。 連続 時 間 ス テッ プ か ら の 奥行 き を 使用 し て 、 観 察 者 プ カ メ ラプ ラッ ト フ ォ ー ム に 
対し て 移動 する 物体 の 奥行 き の 速 度 を 抽出 する こと も で きる 。 カ メラ プラ ッ ト フ ォ ー ム 自 
体 が 移動 し て お り 、 か つこ の 動き の パラ メー タ が 既知 で ある 場合 に は 、 例 えば カメ ラ 位 置 
お よび 動き を 物体 パラ メー タ か ら 減 算 し て 、 絶 対 座標 の 物体 パラ メー タ を 得る こと に よっ 
て 、 こ の 作用 を 補償 する こと が で きる 。 

【0064】 

直接 奥行 き 測 定 に 加え て 、 シ ステ ム は 説明 し た 通り 、2 次元 見 え 方 サイ ズ 変 化 測定 値 を 
送達 する 。 略 剛性 の 物体 の 場合 、 較 正 済み の カメ ラ シ ス テム で は 、 そ の 物理 的 サイ ズ A。 
p、 そ の 2 次 元 見 え 方 サイ ズ 2、 お よび 奥行 き z の 間 の 関係 は 、 次 の 通り で ある ( c ld, 


幾つ か の シス テム パラ メー タ を 圧縮 する 定数 で ある ) 。 
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【 数 2】 
Z A 
= (2) 
c À 

{0065} 


これ は 、2 次 元 見 え 方 サイ ズ ス お よび 奥行 き z が 相互 に 反比例 する こと が 予想 され る こ 
と を 表わす 。 つ まり 、 同 一 の 物理 的 サイ ズ の 場合 、 カ メラ か ら よ りり 遠い に より 近い 物体 
は カメ ラ シ ス テム で は より 小さ く プ より 大 きく 見 える 。 

【0066】 

図 2 は 、 物体 奥行 き 、 物 体 の 物理 的 サイ ズ 、 お よび その 2 次 元 見 え 方 サイ ズ の 間 の 数 学 
的 関係 の 図解 を 示す 。 

[0067] 

本 発明 に 係る シス テム で は 、 数 式 2 は 直接 奥行 き 測 定 を 、2 次 元 見 え 方 サイ ズ 変 化 に よ 
る 奥行 き 推 論 と 結合 する 。 内 部 で は 、 我 々 は と り わ け 速 度 の よう な 、 パ ラメ ー タ Aon, 
A, BEV{ x, y, z } を 含む 状態 に よっ て 追跡 され る 物体 を 表わす 。 直接 奥行 き 測定 
は 、 各 時 間 ス テッ プ で z の 新しい 推定 値 を も た ら す 。 2 次 元 見 え 方 変化 測定 は 、 各 時 間 ス 
テッ プ で 、A の 新しい 推定 値 を も た ら す 。2 次元 位置 追跡 は 奥行 き と 共 に 、 各 時 間 ス テッ 
プ で 物体 の グロ ー バ ル 位 置 { x, y, z} の 新しい 推定 値 を も た ら す 。 和 物理 的 サイ ズ 4。 
ps は 、 他 の 感覚 測定 、 ま た は 代替 的 に 特定 の 物体 の 物理 的 サイ ズ に 関す る 事前 の 知識 、 ま 
た は 対話 する 人 間 か ら の 管理 入力 等 の よう な 、 そ の 状態 に 関す る 追加 ヒン ト を 他 の ソー ス 
か ら 受 け 取 る こと の で きる シス テム の 内 部 パラ メー タ で ある 。 

【0068】 

ここ で 追跡 シス テム の タス ク は 、 現 在 の 状態 パラ メー タ A。kr(tk) 、A(tk) 、 

お よび { x , y, z} (Ctx) を 取り 、 そ れ ら を 使用 し て 、 状 態 パ ラメ ー タ の 何ら か の 動 
的 モデ ル ( 例え ば 物体 の 物理 的 サイ ズ が 一 定 で あり 、 物体 が 一 定 の 奥行 き 速 度 で 移動 し て 
お り 、 か つ 2 次 元 見 え 方 サイ ズ が 数 式 2 に 従っ て 変化 する よう な モデ ル ) に 基づい て 、 次 
の 時 間 ス テッ プ の 予想 状態 パラ メー タ 

【 数 3 】 


Âp (tia) 7 Moya) 


お よび 
【 数 4 】 


f2, 2N) 


を 推定 し 、 こ れ を (2 次 元 サ イズ 推定 か ら の ) A、( 直接 奥行 き 推 定か ら の ) z 、 お よび 
( 2 次 元 位置 推定 か ら の ) { x , y} の 新しい 測定 推定 値 と 結合 し て 、 全 て 数 式 2 の 制約 
の 下 で 新しい 状態 パラ メー タ 2。。(t kmn) 、A(t kmn) 、 お よび {x, y, z 

} (tk+i) の 更新 推定 値 を 得る こと で ある 。( 図 1 で 、 新 し い 測 定 推定 値 は 、 そ れ ら 
を 「 真 」 の 測定 値 と 区 別 す る た め に 、 表 記法 

【 数 5】 
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【 数 6 】 
{7} 


を 受け 取る 。) 
[0069] 

これ を 行なう た め の 直 接 的 方 法 は 、 少 な く と も 考慮 する 状態 パラ メー タ 
【 数 7 】 


の (らん る の) 


を 含む 確率 密度 に 対し 、 動 的 ベイ ジア ン 推 定 器 / 再 帰 的 ベイ ジア ン フ ィ ル タ ノ 確 率 動 力学 
的 推定 器 の 予測 - 確認 梓 組 の よう な 確率 論 的 方 法 を 使用 し 、 過 去 の 全て の 直接 奥行 き 測定 
お よび 2 次元 見 え 方 サイ ズ 変 化 測 定 を 前 提 と し て 、 経 時 的 に それ を 改善 し て 、 状 態 パ ラメ 
ー タ の 最良 の 推定 を 得る こと で ある 。 こ の 枠組 で は 、 新 し い 測 定 推定 値 は 、 確 率 論 的 光度 
に 対応 する 。 現在 の 確率 密度 か ら 、 追 跡 さ れる 物体 の 状況 を 最も よく 記述 する 最 確 パ ラメ 
—F Ron, A, EKUZ を 抽出 する こと が で きる ( 例え ば 最大 確率 点 を 選択 する こと に 
よっ て : し か し これ を 達成 する 異な る 方 法 が 存在 する ) 。 言 うま で も な く < く 、 物体 の ( カメ 
ラ 座標 に お ける ) 2 次元 位置 お よび 速度 の よう な さら な る 物体 パラ メー タ が 、 見 え 方 ベー 
ス の 2 次元 追跡 シス テム に よっ て 送達 され る (モジ ュー ル 1 ) 。 次 いで サイ ズ お よび 奥行 
き パ ラメ ー タ と 共に 、 追 跡 さ れる 物体 の 3 次 元 位 置 お よび 速度 を 決定 する こと が で きる ( 
モジ ュー ル 4 ) 。 さ ら に 、3 次 元 追跡 と カメ ラ の 位置 お よび 向き の 追跡 の 維持 と を 組み 合 
わせ る こと に より (モジ ュー ル 5) 、 エ ゴ モ ー シ ョ ン ( egomotion) 作用 を 補償 
する こと が で きる の で 、 た と え カ メラ シス テム が その 位置 を 変え て も 、 物体 を 確実 に 追跡 
する こと が で きる 。 特に 、 こ れ は 、 ロ ボッ ト 自動 車 自 体 が 移動 し な が ら 、 物体 の 信頼 で 
きる 3 次 元 追跡 を 行なう こと が 、 視覚 的 場面 の 一 貫 し た 表現 を 構築 する た め に 必要 な 能 
で ある 、 他 の 交通 関与 者 の 監視 用 の カメ ラ を 搭載 し た 視覚 的 に 案内 され る ロボ ッ ト ま た は 
自動 車 に 関係 する 用 途 に 、 有 意義 で ある 。 
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【 外国 語 明細 書 】 
1 . TITLE OF INVENTION 


Visually tracking an object in real world using 2D 


appearance and multicue depth estimations 


2 . DETAILED DESCRIPTION OF INVENTION 


Technical Field 


The present invention describes a method for the 
estimation of the dynamic state of a real-world object 
over time using a camera system, 2D image information and 
a combination of different measurements of the object's 
distance from the camera. The invention also relates to a 
tracking apparatus having camera means and programmed 


computing means. 


Background of the Invention 


For technical systems, visual tracking is one key feature 
necessary for analyzing objects in dynamic environments, 
and has been subject of intensive research during the last 
decades, leading to applications in the field of e.g. 
surveillance, collision avoidance and trajectory 


evaluation. 


As it is explained in detail in Toward Robot Learning of 
Tool Manipulation from Human Demonstration, Aaron Edsinger 
and Charles C. Kemp 1 Computer Science and Artificial 
Intelligence Laboratory Massachusetts Institute of 
Technology Cambridge, Massachusetts (see particularly 
figures 1 and 10, in a robot application the result of the 
visual tracking can be forwarded to a visual servoing unit 
controlling the position and orientation of the tracked 


object in the input field of the camera means by 
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controlling actuators for adapting the position and 


orientation of the camera means. 


Visual servoing may involve the use of one or more cameras 
and a computer vision system to control the position of a 
robot's end-effector (manipulator) relative to the 


workpiece (being the tracked object). 


The main problem of technical tracking systems resides in 
that they often require accurate internal models of the 
objects that are being tracked. As an example, in a 
traffic scene, these can e.g. be 3D models (either 
volumetric or surface models, including knowledge about 
their exact physical dimensions) of cars, which are then 
fitted to match the stimulus as it is received by a camera 
system. Alternatively, many technical tracking systems 
find the objects by specific knowledge about an object’s 
appearance, like its color. But in a general case, the 
objects that should be tracked are not known in advance, 
so that no accurate 3D model or other specific knowledge 
is available. In this case, tracking systems have to rely 
on estimations of an objects 3D position and 3D velocity 
using a combination of several different cues and 


measurements. 


Prior art 


Visual tracking is the capability to visually identify and 
follow, using a signal supplied by camera means, a real- 
world object over time despite that it is changing its 
dynamical parameters (position, velocity, etc.) and its 2D 


appearance on the camera. The camera appearance is 
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intrinsically 2D because it constitutes a perspective 
projection of the visual properties of the real-world 3D 
objects onto a 2D screen. It may change considerably due 
to different surface effects caused by variable external 
conditions (like external light spectrum, repositioning of 
light sources, reflectance and shading effects, etc.), 
internal properties like object deformations, or simply 
because the object rotates and repositions in depth, so 
that the perspective projection leads to a different 2D 


appearance of the object in the captured images. 


More specifically, visual tracking usually defines a 
dynamically constrained search of the object over time. 
This includes the estimation of dynamic states of the 
object {its position, velocity, etc.) and further 
transformation parameters, with both types of dynamic 
parameters usually being gained by a correspondence search 
which tries to maximize the match between internally 
stored appearance models and the stimulus that provides 
the current, real appearance of an object. The 
maximization is realized by varying the internal 
appearance models depending on the objects hypothetic 
dynamic parameters. The best matches are then processed 
further to get a new estimate of the true parameters used 
for further tracking the object. A survey of tracking 


mechanisms can be found in [1]. 


Prior art techniques for visual tracking include the 


following: 
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1. Some known tracking systems deal with purely 2D-based 
tracking, estimating as object parameters e.g. its 2D 
position, velocity and acceleration using a 2D 
“template”. Examples constitute special algorithms like 
correlation-based search of the objects in the visual 
input using an Euclidean difference cost function 
between the template and the input, mean-field 
techniques which use a histogram-based cost function 
[2,3], and differential methods which constitute a 
linearized version of the Euclidean cost function (e.g. 
Lucas-Kanade, or “KLT” algorithms). In the following, a 
module working according to any of these techniques will 
be referred to as “2D-tracker”. 

2.More complex object parameters for tracking, like 
geometrical 2D transformations including rotation, 
scaling and shearing can be estimated using template 
matching techniques. An example constitutes again the 
“KLT” algorithm, with special variants for the 
estimation of affine transformations [4-6]. In the 
following, this technique will be referred as “2D 


transformation estimation”. 


3. Depth is usually included as an additional “measurement”, 
gained from a separate cue. State-of-the-art is to use a 
binocular/stereo vision system that allows for disparity 
computation, resulting in a depth estimate for the 
tracked object [7]. The depth is attached to the objects 
state but does not influence the 2D-based tracking, 
which runs autonomously. Disparity-based depth 
computation has considerable limitations in terms of 


reliability and only works well in a narrow depth range 
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limited by the baseline length (the horizontal 
displacement between the two cameras), so that e.g. 
humans are only able to use it in a range of a few 
meters. In the following this technique will be referred 


to as “disparity-based depth measurement”. 


. Alternatively to 2D-trackers, 3D trackers sometimes use 


. 


accurate internal 3D models of the object (which have to 
be measured by other means or known in advance) [8, 9]. 
In this case, if an accurate match of a transformed and 
projected version of the internal 3D model with the 
camera input can be found, its size on the retina allows 


drawing conclusions about its depth. 


Another type of binocular 3D trackers starts directly 
using 3D coordinates as internal state, and tries to 
find a particular object appearance in both cameras. In 
this case, the 2D appearance match calculations and the 
depth estimation are coupled automatically via the 3D 
coordinates and their projection onto the 2D coordinates 
of the left and right cameras. These trackers are often 
implemented using Dynamic Bayesian Networks (including 
Kalman filters as a special case) so that the 


estimations are gained and improved over time. 


. Known multicue trackers integrate multiple cues for the 


estimation of the same type of parameters, either 
combining them according to their reliability or 
selecting the most reliable cue(s) and basing the 


estimation on these only. 
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7. Generally, Dynamic Bayesian Estimators are a very 
researched field for the temporal estimation and 
integration of state variables as it occurs during 
tracking. We assume this prior-art technique including 
its variants Particle Filter and Kalman Filter to be 


known [10-13]. 


8. There exist a number of visual tracking systems using 
depth-sensing camera technology, e.g. taking advantage 
of time-of-flight signals ( see WO 2004/107266A1), which 
provide a robust and dense 3D signal for the view field. 
Usually, these systems rely on the 3D data to detect and 
track an object, i.e., the object is “cut-out” using the 
depth data. The approach pursued in this invention, 
however, relies on standard visual cameras and 
appearance-based tracking so that a) the tracked object 
does not need not be segmentable from its 3D data and b) 
no special sensing hardware is required. Nevertheless, 
data from such sensing technology could be integrated 
into our system as an additional depth measurement in 


the very sense of point. 


Disclosure of the Invention 


The present invention targets at a visual tracking system 
which does not need accurate object models in advance, but 
is nevertheless able to estimate an object’s 3D position 
and 3D velocity relying on the analysis of an object’s 2D 
appearance and the integration of several visual cues for 


depth estimation. 
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This capability is achieved by means of the features of 
the independent claims. The dependent claims develop 


further the central idea of the present invention. 


A first aspect of the invention relates to a method for 
tracking arbitrary real-world objects by estimating their 
3D position and 3D velocity using 2D appearance hints and 
multicue depth estimations. The method comprises the 


steps of: 


(1.1.) Taking a camera image measured at time t, 
(1.2.} Preprocessing a subregion of the camera image 
at time t where the object to be tracked is expected 
using a series of cues to get the input features at 
time t, 

(1.3.) Using the input features at time t to 
initialize the tracker template by indication of a 
region of the visual input at time t using external 
means, with the region gained either from additional 
algorithms (like a segmentation algorithm) or by user 
interaction (indicating the position and region in 
the image delivered by the camera). At this time step, 
the selected region is also stored in form of a 
weighting mask and the internal state of the object 
gets initialized to a position derived from the 
region (e.g., using its centroid, its center of 
gravity or its averaged position integrated using the 
weighting mask), 

(1.4.) Taking the next camera image at time t+dt, 
(1.5.) Preprocessing a subregion of the camera image 


at time t+dt in the same way as in step 1.2, 
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(1.6.) Using a 2D-tracker on the input features at 
times t and t+dt to get estimates of the 2D position 
and 2D velocity of the objects appearance in camera 
image 2D coordinates, 

(1.7.) Using an approximate estimation of the objects 
depth (its distance from the camera system) at time t 
from an additional cue, which can be but need not be 
visually based. Measured at two consecutive timesteps 
t and t+dt, this serves as an approximation for the 


depth change. In practice, the depth measurement may 


involve e.g. input from a second camera as in the 
case of a binocular camera system, 

(1.8.) Using a 2D transformation estimation on the 
camera images and / or selected input features at 
times t and ttdt to extract the relative change of 
scale / size of the object that is being tracked. 
(1.9.) Coupling the approximate estimation of the 
depth and the depth change of the object from step 
1.7 with the change in scale / size from step 1.8 to 
improve the depth estimation for the object, in the 
sense that for rigid objects a reduction or an 
increase in size is a hint for an increase or 
decrease in depth, respectively, of an object, 

(1.10.) Combining the 2D position and 2D velocity of 
the tracked object from step 1.6 (in camera 
coordinates) with the depth and depth change 
estimation from step 1.9 and converting it into 
global 3D coordinates by using camera positioning 
information, to get the global coordinates of the 


object that is being tracked, 
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TEETE Using the 3D position to calculate an 
approximate physical size of the object, 

(1.12.) Iterating the steps 1.4 -1.11 while the 
object is being tracked, until the object is lost 
(which can be detected e.g. by some confidence 
criterion from the match between input and template), 
and 

(1.13.) Starting again at step 1.1 to track the same 


or a new object. 


The method may furthermore comprise the step of: 

{2.1.) taking changes of the position and orientation 
of the camera in global space into account to compensate 
for motion of the camera and / or the platform where it is 


mounted on. 


Uncertainties can be taken into account by using 
probabilistic methods for the estimation of the object 
states according to steps 1.6 and 1.7 and / or the 


coupling according to step 1.9. 


The approximate depth and depth change / depth velocity 
estimation from step 1.7 may occur incrementally by 
integrating the results over time, like e.g. when using 


Dynamic Bayesian Filters / Kalman filters, etc. 


Instead of a single approximate depth estimation a series 
of depth estimations based on different cues and / or 
measurement techniques can be used which are then again 
coupled with the 2D change in scale / size change 


estimation as in step 1.9. 
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The two estimation steps 1.7 and 1.8 may influence each 
other, in the sense that 

a) the estimation of the 2D transformation from step 1.8 
occurs by taking the expected depth change / depth 
velocity from step 1.7 into account, meaning that an 
expected, reduced or increased size caused by an increase 
/ decrease in depth is considered in the transformation 
search procedure, 

b) the estimation of the object’s depth from step 1.7 
occurs by using prior information about the expected depth 
derived from the physical size calculated in step 1.11 and 
the expected change of scale /size of the object being 


tracked from step 1.8. 


The same principles may be applied to higher-order 
derivatives of object’s state parameters, so that e.g. 
accelerations of an object's position or size or 
orientation are estimated and used for the tracking 


procedure. 


Further features, properties and advantages of the present 
invention will become evident for the skilled person when 
reading the following detailed description of preferred 
embodiments of the invention, when taken in conjunction 


with the figures of the enclosed drawings. 


Best Mode for Carrying out the Invention 


Figure 1 shows an overview of a system for implementing 


the invention. 


The system comprises several modules: 
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1.A 2D-tracker module which works based on the 2D 
appearance of an object to estimate its position and 
velocity. This occurs without the necessity of accurate 
prior models of the object that is being tracked; 
instead, the tracking templates (i.e., the prototypical 
parts of the scene that should be tracked from now on) 
can be directly extracted from the input image as a 
first step. This allows to track general, arbitrary 
objects without prior limitations on the object’s 


appearance and object class/type. 


2. A geometrical 2D transformation estimation module which 
estimates several transformation parameters that allow 
to find the best match between the template and the 
input, including its scale and the rate of scale change. 
As an example, a scale change of 0.1 between two 
tracking time steps would then mean that the 2D 
appearance of the object (i.e., its appearance as it is 
delivered by the camera system) that is being tracked 


has grown 10% in size. 


3. One or several modules that provide independent 
measurements of the object’s depth (1.e., the distance 
of the object from the camera system). These 
measurements may, however, be very unreliable. In our 
exemplary case, we use a) a dense, binocular disparity- 
based depth measurement system based on the comparison 
of local patches between the left and right cameras and 
b) a more globally working binocular system that tries 


to find the object in the left and the right camera 
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images and calculates a single depth value for a tracked 


object from the displacement between the two matches. 


4. Means to transform coordinates from the camera 
coordinate system into a global coordinate system and 
back. In this case, the “complete” 3D camera coordinates 
for each point consist of the 2D camera coordinates plus 
a depth value. Assuming that the camera images can be 
rectified to account for lens distortions so that it can 
be treated as a sort of “pinhole-camera”, and knowing 
the position and orientation of the camera in global 
space, one can easily find the coordinate 
transformations via geometrical considerations. The 
entire transformation from one coordinate system to the 
other can then be described in terms of a translation, 


an orthonormal projection and a perspective projection. 


5. Means to measure or estimate changes of the position and 
orientation of the camera in global space, so that a 
motion of the system with the camera system can be 
quantified. This is of advantage especially for the case 
of autonomously moving platforms with mounted cameras, 


like e.g. moving cars or robots with vision systems. 


The system receives its 2D input image with a size of w*h 
pixels from a camera that is attached to a platform which 
optionally may be movable. It is assumed that the position 
and orientation of the platform with respect to a globally 
anchored coordinate system, and the position and 
orientation of the camera (or the two cameras, in case 


that the objects depth measurement is supplied by 
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binocular disparity) with respect to the platform, are 
approximately known at any moment in time. This allows the 
conversion of coordinates back and forth between the 
global 3D coordinate systems and the 3D coordinate systems 


anchored at and aligned with the cameras. 


Furthermore, it is assumed that the projections from the 
camera 3D coordinates to the camera 2D camera input 
coordinates and back are known. The consequence is that 
one can always convert coordinates back and forth between 
the global 3D coordinate system and the 2D camera input 


coordinates. 


Now the processing according to the invention will be 


explained: 


As a first step, the 2D camera input is preprocessed using 
a series of n cues, leading to a set of n images. The cues 
can be gained by simple preprocessing methods, like 
applying orientation, contrast or color extraction filters 
on the input image, but can also imply more sophisticated 
measures that are specific to a particular object, like 
its expected color. The exact choice of the cues is not of 
relevance for this invention as long as they contain 
sufficient information to be able to track an object using 
the preprocessed camera image. In the ideal case, the 
different cues convey uncorrelated information about the 
object, so that tracking deficits from one cue can be 
compensated by other cues, making the entire process 
robust against input variations. Most of the following 


steps use the n cues extracted from the preprocessed input 
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image, which will be called the “n input features” from 


here on. 


To save processing resources it is possible to limit the 
preprocessing to a limited subregion of the 2D camera 
field. The subregion can e.g. be determined from an 
estimated position, size and velocity of the object that 
should be tracked. Once the tracking has started, all 
these parameters will be continuously estimated by the 
tracking system, so that they are readily available and at 


each timestep the subregion can be adjusted accordingly. 


To start with, the system needs an approximate idea of how 
the object that should be tracked looks like. For this 
purpose, the system has to be supplied with a 2D 
appearance template, which works in the same space as the 
input features. In practice, this means that the system 
gets such a template from user interaction or other 
modules not described here (like memory modules that can 
supply a previously recorded appearance template), or that 
it gets a position and area information, again from user 
interaction or from other modules, and extracts the 2D 
appearance template by itself using the current input 
features. In detail, extracting the template requires 
indication of a position and an area that is supplied 
directly in, or that can be converted to, 2D camera input 
coordinates. The internal state of the object that is used 
to describe the objects 2D appearance within the system is 
composed of the template, the position in 2D camera 
coordinates and the weighting mask, gained from the 


indicated area. Eventually, e.g. if the position has been 


(30) JP 2009-146406 A 200972 


supplied in 3D coordinates, also the 3D position will be 
part of the objects state, as well as supplementary 


information like assumed velocities, sizes, etc. 


Once that the tracker has been initialized, the object can 
be searched in subsequent images by finding those parts of 
the visual scene where a match between the 2D appearance 
template and the input features is large. This is 
accomplished by the 2D tracker, which in our special case 
is implemented as a state-of-the-art multicue Dynamic 
Bayesian Tracker which operates incrementally and 
statistically. The result from this module is a 
probabilistic map which indicates the probability that the 
tracked object has currently some particular 2D camera 


input position and velocity. 


If an object’s 2D appearance changes considerably over 
time, it is useful to incorporate cue and template 
adaptation steps into the tracking procedure, which 
readjust the 2D appearance template and / or parameters of 


object specific cues. 


As a further step, now the depth is estimated, meaning the 
3D distance, between the object and the camera. The 
central idea of this invention is that two specific 
{explained in the following) depth estimations are coupled 
which operate on very different cues and which work in 
complementary ways to mutually compensate weaknesses of 
each single estimation. 1) One of them is a direct depth 
estimation using conventional techniques, like taking 


advantage of binocular vision. On itself, this direct 
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depth estimation can be a combination of several different 
submethods which may have been already integrated with 
each other. 2) The second technique is the depth change 
estimation that we can extract from observing a change in 
size of the 2D appearance of an object in a single camera. 
The rationale is that an object which is increasing or 
decreasing its distance to the camera causes a decrease or 
increase, respectively, of the size of the 2D appearance. 
If we know the objects depth and the depth velocity, we 
can estimate the expected size change of an object’s 2D 
appearance. To the contrary, if we know the objects depth 
and its 2D appearance size change, we can estimate the 
depth velocity. The two depth estimations (i.e., the 
direct one and the 2D size change estimation based one) 
are therefore intertwined and it is reasonable to design a 
3D tracking system in such a way that it takes advantage 
of the combination of these 2 properties. Such a system 
allows the stable and easy 3D tracking of an arbitrary 
object without any accurate 3D model of the object itself, 
relying mostly on its 2D appearance and 2D appearance 


change. 


In particular in combination with binocular techniques, 
coupling of the two different depth estimation methods 
provides advantages for a 3D object tracking system. 
Binocular systems work well in a close distance to the 
camera depending on the camera baseline length. Depth 
estimation by observation of the size change of the 
tracked object, however, can work over a larger range of 
distances. Both methods can therefore bootstrap each 


other; as an example, an object whose depth is accurately 
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measured in the close distance range can be tracked in 
depth measuring its size change as it moves out of the 


range of accurate 3D estimation of binocular systems. 


The size change of the 2D appearance of an object is 
extracted in this system using a template matching 
procedure as described in point 2 of prior art, referred 
to as 2D transformation estimation. In our case, the 
system searches for the affine transformations A that 


provide the best match between the 2D appearance template 


and the input image. At each timestep な, the current 


transformation state A(t,) represents the best description 


of the current 2D appearance of the tracked object in 
terms of its template, in the sense: “the currently 
tracked object looks like the 2D appearance template 


transformed by a certain amount, e.g. rotated by 5 degree 
and scaled by 10%”. The next timestep ¢,,, transformation 
state At,,,) is then estimated by propagating the 
transformation state A(t,) into the future and starting a 


new template matching based transformation estimation 
search from there. From each affine transformation state, 
we extract the size 4A by approximating it as a composition 


of a scaling and a rotation operation, in the way 
a, a A 0\ (cos(a) -sin(a 
0 0 (costa) ~ sin(a) 
の 2」 の っ 0 4 sin(@) COS(@) 
[Eq. 1] 


This means that the scale ん can be calculated directly from 


the determinant of the transformation state matrix. The 
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results from two consecutive timesteps can then be 
subtracted to calculate the transformation change, e.g. 
the scale transformation change AA between two timesteps, 


which quantifies the size change of the 2D appearance. 


The direct depth estimation based on a binocular input was 
in our case a standard disparity-based dense (i.e., pixel- 
wise) depth measurement (see point 3 of prior art) 
followed by an extraction of a single approximate depth 
for the entire object that is being tracked using the 
object weighting mask (e.g. by spatial integration of the 
dense depth measurement with the mask). These measurements 
were integrated over time again using a Dynamic Bayesian 
Estimator. An additional, second binocular depth 
measurement that we incorporated into the system is a 
direct search of the 2D appearance template extracted from 
the first camera in the second camera, using e.g. 
crosscorrelation or the template matching techniques 
described in point 2 of prior art. From the relative 
displacements between the positions where the template is 
found in the left against the right camera, a disparity is 
extracted that can also be used as basis for a depth 


measurement. 


The direct depth measurement provides some hints on the 
depth of an object, which is often unreliable. Using the 
depth from consecutive time steps, we can also extract the 
velocity in depth of the moving object relative to the 
observer/the camera platform. If the camera platform 
itself is moving, and the parameters of this motion are 


known, then this effect can be compensated, e.g. by 
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subtracting the camera position and motion from the object 
parameters to get the object parameters in absolute 


coordinates. 


Additionally to the direct depth measurement, the system 
delivers a 2D appearance size change measurement, as 
explained. For approximately rigid objects, and in a 
calibrated camera system, the relation between its 


physical sized, , its 2D appearance size4 and the depth 


zis as follows (c is a constant that compresses several 
system parameters, like the camera focal length, the 2D 


screen size and the tracking template size): 
zZ A 
ー= — [Eq. 2] 
c À q 


This expresses the expected fact that the 2D appearance 
size A and the depth z are inversely proportional to each 
other - meaning that for same physical size, objects that 
are more distant from / near to the camera appear smaller 


/ larger in the camera system. 


Figure 2 shows a graphical explanation of the mathematical 
relationship between the object depth, the object’s 


physical size and its 2D appearance size. 


In the system according to the invention, equation 2 
couples the direct depth measurement with the depth 
inference by 2D appearance size change. Internally, we 


represent a tracked object by a state containing, among 
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others like velocities, the parameters Ams A and {x,y,z}. 
The direct depth measurement delivers, at each time-step, 
a new estimate for z. The 2D appearance change measurement 
delivers, at each time-step, a new estimate for A. The 2D 
position tracking together with the depth delivers, at 
each timestep, a new estimate for the global position 
{x,y,z} of the object. The physical size A is an internal 
parameter of the system that can receive additional hints 
about its state from other sources, like other sensory 
measurements, or alternatively prior knowledge about a 
particular objects physical size, or even supervised input 


from an interacting person, etc. 


The task of the tracking system is now to take the current 


state parameters 4A,,(t,), A(t,) and {x,y,z\(t,) , use them to 


predict the expected state parameters A lten) 7 4⑦。。) and 


{8,9,2\0,,,) for the next time-step based on some dynamical 
model for the state parameters (like e.g. that the objects 
physical size is constant, that the object is moving with 
constant depth velocity and that the 2D appearance size 
changes according to eq. 2) and couple this with the newly 
measured estimates for A (from 2D size estimation) z (from 
direct depth estimation) and {x,y} (from 2D position 
estimation) to get updated estimations for the new state 
parameters A(t), Afu) and fx, y, Xtra) / everything under 
the constraint of equation 2. (In figure 1, the newly 
measured estimates receive the notation A, Z and {x, 7} to 


differentiate them from the “true” estimates.) 
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The direct way to do this is using probabilistic methods, 
like the prediction-confirmation framework of Dynamic 
Bayesian Estimators / Recursive Bayesian Filters / 
Stochastic Dynamic Estimators, for a probability density 
that comprises at least the the considered state 


parameters, 


(もら ん る る 


improving it over time to get the best estimate of the 
state parameters, given all past direct depth measurements 
and 2D appearance size change measurements. In this 
framework, the newly measured estimates correspond to the 
probabilistic likelihoods. From the current probability 


density, we can then extract the most probable 


parametersdA,,, 4 and z that best describe the situation of 


the tracked object (e.g., by selecting the point of 
maximal probability, but different methods exist to 
achieve this). Of course, further object parameters like 
the object's 2D position and velocity (in camera 
coordinates) are delivered by the appearance-based 2D 
tracking system (module 1). Together with the size and 
depth parameters, the 3D position and velocity of the 
tracked object can then be determined (module 4). 
Furthermore, the combination of 3D tracking and keeping 
track of the position and orientation of the camera 
(module 5) allows to compensate for egomotion effects, so 
that objects can be tracked reliably even if the camera 
system changes its location. In particular, this becomes 


relevant for applications related to visually guided 
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robots or cars with mounted cameras for surveillance of 
other traffic participants, where reliable 3D tracking of 
objects while the robot / car itself is moving is a 
necessary capability for building up consistent 


representations of a visual scene. 
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BRIEF DESCRIPTION OF DRAWINGS 


Figure 1 shows an overview of a system for implementing 


the invention. 


Figure 2 shows a graphical explanation of the mathematical 
relationship between the object depth, the object’s 


physical size and its 2D appearance size. 


CLAIMS 
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is A method for visually tracking real-world objects by 
estimating their 3D position and 3D velocity using 2D 
appearance hints and multicue depth estimations, 

the method comprising the steps of: 

(1.1.) Taking a camera image measured at time t, 

(1.2.) Preprocessing a subregion of the camera image at 
time t where the object to be tracked is expected using a 
series of cues to get the input features at time t, 

(1.3.) Using the input features at time t to initialize a 
tracker template by indication of a region of the visual 
input at time t using external means, with the region 
gained either from additional algorithms or by user 
interaction, 

(1.4.) Taking the next camera image at time t+dt, 

(1.5.) Preprocessing a subregion of the camera image at 
time t+dt in the same way as in step 1.2, 

(1.6.) Using a 2D-tracker on the input features at times t 
and ttdt to get estimates of the 2D position and 2D 
velocity of the object’s appearance in camera image 2D 
coordinates, wherein the object is searched in the next 
camera image at time ttdt by determining a match between 
the tracker template and the input features, 

(1.7.) Using an estimation of the object’s depth at time t 
from an additional cue, measured at two consecutive 
timesteps t and ttdt in order to approximate the depth 
change, 

(1.8.) Using a 2D transformation estimation on the camera 
images and/or selected input features at times t and t+dt 
to extract the relative change of scale / size of the 
object that is being tracked, 

(1.9.) Coupling the approximate estimation of the depth 
and the depth change of the object from step 1.7 with the 
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change in scale / size from step 1.8 to improve the depth 
estimation for the object, 

(1.10.) Combining the 2D position and 2D velocity of the 
tracked object from step 1.6 in camera coordinates with 
the depth and depth change estimation from step 1.9 and 
converting it into global 3D coordinates by using camera 
positioning information, to get the global coordinates of 
the object that is being tracked, 

(1.11.) Using the 3D position to calculate an approximate 
physical size of the object, and 

(1.12.) Iterating the steps 1.4 -1.11 while the object is 


being tracked, until a stopping criterion is satisfied. 


2. The method according to claim 1, 

furthermore comprising the step of: 

(2.1.) taking into account changes of the position and 
orientation of the camera in global space to compensate 
for motion of the camera and / or the platform where it is 


mounted on. 


3. The method according to claims 1 or 2, 

(3.1.) where uncertainties are taken into account by using 
probabilistic methods for the estimation of the object 
states according to steps 1.6 and 1.7 and / or the 


coupling according to step 1.9. 


4, The method according to any of claims 1-3, 
(4.1) where the approximate depth and depth change / depth 
velocity estimation from step 1.7 occurs incrementally by 


integrating the results over time. 


5- The method according to any of claims 1-4, 
(5.1) where instead of a single approximate depth 
estimation a series of depth estimations based on 


different cues and / or measurement techniques are used 
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which are then again coupled with the 2D change in scale / 


size change estimation as in step 1.9. 


6. The method according to claims 1-5, 

where the two estimation steps 1.7 and 1.8 influence each 
other, in the sense that 

(6.1.) the estimation of the 2D transformation from step 
1.8 occurs by taking into account the expected depth 
change / depth velocity from step 1.7, meaning that an 
expected reduced or increased size caused by an increase / 
decrease in depth is considered in the transformation 
search procedure, 

(6.2.) the estimation of the objects depth from step 1.7 
occurs by using prior information about the expected depth 
derived from the physical size calculated in step 1.11 and 
the expected change of scale /size of the object being 


tracked from step 1.8. 


Ta The method according to claims 1-6, 
where 
(7.1) the same principles are applied to higher-order 


derivatives of an objects state parameters. 


8. The method according to any of the preceding claims, 

wherein the result of step 1.12 is forwarded to a visual 
servoing unit controlling the position and orientation of 
the tracked object in the input field of the camera means 
by controlling actuators for adapting the position and 


orientation of the camera means. 


9. A tracking apparatus having camera means supplying a 
signal to computing means, which computing means are 
programmed to carry out a method according to any of the 


preceding claims. 
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10. A humanoid robot being provided with a tracking 


apparatus according to claim 8. 


11. An automobile, being provided with a tracking 


apparatus according to claim 9. 


12. A computer software program product, implementing a 
method according to any of claims 1 to 8 when run on a 


computing device. 


ABSTRACT 
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The invention relates to a method for the estimation of 
the dynamic state of a real-world object over time using 
a camera system, 2D image information and a combination 
of different measurements of the object’s distance from 
the camera. The 2D image information is used to track an 
object’s 2D position as well as its 2D size and 2D size 
change using its appearance. In addition, an object's 
distance from the camera is gained from one or several 
direct depth measurements. The 2D position and size, and 
the object’s depth are coupled with each other to get an 
improved estimation of an object’s 3D position and 3D 
velocity, and so get an improved real-world object 
tracking system, which can be used on a moving platform 
like a robot or a car with mounted cameras for a dynamic 


visual scene analysis. 
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